马尔可夫思考

算力成本大降！马尔可夫思考机来了，LLM推理成本直接降为线性

这类模型在回答问题前会生成一长串的思维链（LongCoT）；并且增加「思考 token」的数量能够提升模型的能力。与任何强化学习问题一样，它存在一个决定轨迹如何生成的环境。